Google Cloud Certified Professional Data Engineer: Pr. Tests③
BigQuery
Due to the dynamic attribute structure sent by ATM machines, JSON-formatted events are sent to the centralized system
auto-detect
カラムのリネーム、データタイプ変更、必須は修正不可能
新しいテーブルを作り直して入れる
The migration should be done in a short time period and cost should be considered
BigQuery + GCSの外部テーブル
GCSにあるデータにシンプルな変換をしたい
BigQueryの外部テーブルでSQLを使用する
一度BQに取り込んでクエリを打つのは手間
skewed and not aligned
読み込むCSVファイルがUTF-8じゃない
→エンコーディングを明示する必要がある
Bigtable
HDD→SSD
新しいクラスタを作成してDataflowでデータを移行する
tall & narrow table
Dataflow
BQMLで毎日予測してGCSに格納したい
DataflowからSQLを流してGCSに保管できる
スケジュールドクエリだと手動で結果をエクスポートしないといけない
Dataproc
Dataprocクラスターにライブラリをインストールしたいけどセキュリティ要件でオンラインに繋いではいけない
GCSに依存ライブラリを置いてそこからインストールする
Dataprep
The tool should provide a user-friendly and easy-to-use UI for data analysts.
Datastore
datastoreのデータを日次でバックアップする
gcloudコマンド + cron
GCS
マルチプロジェクトを一つのプロジェクトにまとめる。その際に25TBのGCSを新しいプロジェクトに移動させる
Storage Transfer Service
セキュリティチームの暗号化キーで暗号化する
暗号化キーを指定してGCSに保存する
Spanner
UUID4をプライマリーキーにする
ノードにデータが分散するために主キーの設計が大事
機械学習
Tensorflow
GPUよりTPU